Análisis Univariado

Column {data-width=300}

Comentarios V.D

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 25.93000
  • 1st Q: 52.4075000
  • Median: 68.11500
  • Mean: 67.04954
  • 3st Q: 83.8175000
  • Max.: 96.46000
  • SD.: 18.45752
  • CV: 0.2752819

La curva roja es una estimación suavizada de la densidad de los datos y resalta una concentración en torno a los rangos de 60%-80%, con una caída a medida que el porcentaje de votos disminuye.

Boxplot: No existen datos atípicos.

Comentarios V.I: %Mujeres

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 42.65533192
  • 1st. Q: 48.07766574
  • Median: 49.81040781
  • Mean: 49.44516344
  • 3st Q: 50.95561054
  • Max: 58.10984109
  • SD: 2.19179787
  • CV: 0.04432785

El apoyo femenino a Pedro Castillo parece ser consistente y homogéneo en la mayoría de las regiones analizadas. La distribución es aproximadamente simétrica lo que indica que el porcentaje de mujeres votantes está equilibrado alrededor de un valor central. La curva de densidad confirma que la mayoría de los datos están concentrados cerca del 50%, con pocas observaciones en los extremos. Además, el valor más frecuente de porcentaje de mujeres votantes está alrededor del 50%.

Boxplot: Existen datos atípicos.

Comentarios V.I: %Jovenes

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 18.4522461
  • 1st Q: 28.6560550
  • Median: 31.3014269
  • Mean: 31.4363948
  • 3st Q: 34.2919768
  • Max: 47.5896846
  • SD: 4.3411377
  • CV: 0.1380927

La gráfica sugiere una distribución aproximadamente normal, ya que el ajuste de densidad (línea negra) sigue una curva simétrica. La mayoría de las observaciones se concentran cerca del 30%, indicando que este es el rango promedio donde la mayoría de los jóvenes votantes se encuentra. Es decir, hay menor frecuencia en los extremos, es decir, porcentajes muy bajos (cercanos al 20%) o altos (cercanos al 50%).

Boxplot: Existen datos atípicos.

Comentarios V.I: %IDH

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min: 21.9552692
  • 1st Q: 35.4167551
  • Median: 42.2697097
  • Mean: 44.4095048
  • 3st Q: 54.3056203
  • Max: 72.5512872
  • SD: 11.5832359
  • CV: 0.2608279

La mayor densidad de valores parece concentrarse entre 40 y 50, lo que sugiere que este es el rango promedio del IDH en las zonas rurales. Hay menos casos con valores extremos, tanto hacia el límite inferior (cercano a 20) como hacia el superior (cercano a 70).

A pesar que, hay una ligera variabilidad en los datos, la curva muestra que los valores del IDH están distribuidos de manera moderadamente homogénea en las comunidades rurales.

Boxplot: No existen datos atípicos.

Column {data-width=600}

Histograma V.D

      Min.    1st Qu.     Median       Mean    3rd Qu.       Max.         sd 
25.9300000 52.4075000 68.1150000 67.0495408 83.8175000 96.4600000 18.4575243 
      skew       kurt         cv 
-0.2716323 -1.0075580  0.2752819 

Boxplot V.D

Histograma %Mujeres

       Min.     1st Qu.      Median        Mean     3rd Qu.        Max. 
42.65533192 48.07766574 49.81040781 49.44516344 50.95561054 58.10984109 
         sd        skew        kurt          cv 
 2.19179787 -0.28548800  0.79697953  0.04432785 

Boxplot %Mujeres

Histograma %Jovenes

      Min.    1st Qu.     Median       Mean    3rd Qu.       Max.         sd 
18.4522461 28.6560550 31.3014269 31.4363948 34.2919768 47.5896846  4.3411377 
      skew       kurt         cv 
 0.1167708  1.0241234  0.1380927 

Boxplot %Jovenes

Histograma %IDH

      Min.    1st Qu.     Median       Mean    3rd Qu.       Max.         sd 
21.9552692 35.4167551 42.2697097 44.4095048 54.3056203 72.5512872 11.5832359 
      skew       kurt         cv 
 0.3797334 -0.8655071  0.2608279 

Boxplot %IDH


Análisis Bivariado

Column

Comentarios

Después de realizar la correlación Pearson y Spearman, se conluyó que las variables:

  • El “porcentaje_mujeres”, sí tiene correlación con la variable dependiente mientras que,

  • El “porcentaje_jovenes”, tiene una correlación baja e,

  • “IDH”, sí existe correlación.

Column {data-width=600}

Bivariado 1

Pearson
$estimate
      cor 
0.2356164 

$p.value
[1] 0.0008858989
Spearman
$estimate
      rho 
0.2728297 

$p.value
[1] 0.0001093545

Bivariado 2

Pearson
$estimate
      cor 
0.1094057 

$p.value
[1] 0.1268933
Spearman
$estimate
      rho 
0.1441227 

$p.value
[1] 0.04386842

Bivariado 3

Pearson
$estimate
       cor 
-0.4431248 

$p.value
[1] 7.821701e-11
Spearman
$estimate
       rho 
-0.4647144 

$p.value
[1] 6.814326e-12

Regresión Lineal

Column

Comentarios

Interpretación RL1:

El porcentaje de mujeres votantes SÍ tiene efecto y es significativo, por lo que, tiene una relación directa controlado por el porcentaje de pobreza extrema.

Interpretación RL2:

El porcentaje de jovenes no es significativo en los votos por Castillo.

Interpretación RL3:

Añadimos la variable IDH y todas las variables son significativas con el porcentaje de votos por Castillo pero solo el porcentaje de mujeres y el IDH tienen efecto. Para saber cuál regresión es mejor, las compararemos.

Interpretación Anova:

El modelo3 es el mejor.

Linealidad: Línea roja debe tender a horizontal

Homocedasticidad: Línea roja debe tender a horizontal

Normalidad de los residuos: ¿Puntos cerca a la diagonal?

No multicolinealidad: > 5 es problematico

Valores influyentes: Si no aparece ningún número, no afecta

Column {data-width=600}

Regresión 1

Regresion: modelo 1
 VotosCastillo (I)
(Intercept) -15.142
(27.213)
porcentaje_mujeres 1.496**
(0.554)
Porc_PE 0.613***
(0.110)
Num.Obs. 196
R2 0.186
R2 Adj. 0.178
AIC 1665.7
BIC 1678.8
Log.Lik. -828.839
F 22.095
RMSE 16.61
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 2

Regresion: modelo 2
&nbsp;VotosCastillo (II)
(Intercept) -17.057
(29.924)
porcentaje_mujeres 1.507**
(0.560)
porcentaje_jovenes 0.046
(0.293)
Porc_PE 0.607***
(0.117)
Num.Obs. 196
R2 0.186
R2 Adj. 0.174
AIC 1667.7
BIC 1684.0
Log.Lik. -828.826
F 14.663
RMSE 16.61
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 3

Regresion: modelo 3
&nbsp;VotosCastillo (III)
(Intercept) 26.881
(30.687)
porcentaje_mujeres 1.632**
(0.539)
porcentaje_jovenes -0.411
(0.303)
IDH -0.663***
(0.162)
Porc_PE 0.139
(0.160)
Num.Obs. 196
R2 0.252
R2 Adj. 0.237
AIC 1653.1
BIC 1672.8
Log.Lik. -820.541
F 16.118
RMSE 15.92
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparando modelos

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
193 54055.94 NA NA NA NA
192 54049.10 1 6.83466 0.0262833 0.8713818
191 49667.36 1 4381.74440 16.8503664 0.0000599

Linealidad

Interpretación: La falta de linearidad provocaría que el modelo no sirva para explicar las mismas variables con datos diferentes en otros estudios.

Homocedasticidad

Interpretación: Se rechaza que el modelo muestre homocedasticidad.

Normalidad de los residuos

Interpretación: Se rechaza la normalidad de los residuos. Por lo tanto, porcentaje de votos se distribuye de manera normal y se puede realizar inferencias a partir de lo encontrado como interpretaciones sólidas y confiables en base a resultados.

No multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
porcentaje_mujeres 1.046401
porcentaje_jovenes 1.298750
IDH 2.627061
Porc_PE 2.330429

Interpretación: no existe multiconealidad alta entre los predictores y permite calcular bien el efecto de cada regresor.

Valores influyentes

Cuadro V.I

Valores Influyentes criticos
cook.d hat
NA NA
:—— :—

Interpretación: Ningún número afecta el cálculo de la regresión.


Clusterización

Column

Comentarios

PAM:

Gráfico C: Nos recomienda dos clusters.

Clusterización: Provincias mal clusterizadas: “BONGARA”, “CAJATAMBO”, “HUAMANGA”, “JAÉN”, “LAMPA”, “SANDIA”, “UTCUBAMBA”.

Agnes:

Gráfico D: Recomienda un cluster.

No se puede continuar con el análisis porque no permite un operador unitario. Por lo tanto, el análisis concluye allí.

Diana:

Gráfico E: Nos recomienda dos clusters.

Clusterización: Sin provincias mal clusterizadas.

Gráfico DIANA - Dos subconjuntos sin provincias mal clusterizadas.

Column {data-width=600}

Grafico A

Datos seleccionados

Grafico B

Las variables están estandarizadas.

Grafico C - PAM

Silhouettes PAM


Grafico D - AGNES

Grafico E - DIANA

Silhouettes Diana

Grafico PAM - Mal clusterizados

Grafico DIANA - Mal clusterizados